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摘 要 : [目的 /意义 ] 为 进一步 提升 金融 领域 事件 抽取 的 效果 ,增强 事件 抽取 两 个 子 任务 之 间 的 关联 性 。[ 方法 过程] 在 
中 文 金融 文本 上 进行 事件 抽取 相关 研究 ,提出 一 种 融合 预 训 练 模型 与 多 层 卷 积 神经 网 络 的 金融 事件 联合 抽取 方 
法 ,首先 通过 预 训 练 模型 BERT 捕捉 句子 序列 的 综合 语义 信息 ,然后 接 入 本 文 设 计 的 多 层 卷 积 架 构 MultiCNN , 分 
层 提取 局 部 窗口 和 高 维 空间 语义 信息 ,同时 实现 事件 识别 和 要 素 抽 取 这 两 个 任务 ,再 通过 引入 对 比 损失 ,进一步 
强化 两 个 任务 之 间 的 关联 。[ 结果 /结论 ] 在 中 文 金融 事件 数据 集 上 F 达到 82.20% , 比 各 个 基准 抽取 模型 均 有 一 


bum 定 提升 。 


T IE 中 文 事件 抽取 ”着 积 神经 网 络 ” 预 训练 模型 ”联合 学 习 
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事件 是 人 们 表达 信息 .观点 或 事实 的 一 种 语义 单 
5 驶 现 , 它 一 般 是 指 特定 的 人 或 物 在 特定 时 间 地 点 内 
于 作用 的 客观 事实 ,是 人 们 认 知 世 界 的 一 种 方式 "1。 
金融 行业 有 以 新 闻 .公告 微 博 等 为 代表 的 海量 领域 广 
术 牙 所 ,这些 文本 中 殖 含 着 以 金融 事件 为 代表 的 高 时 
效 C 高 价值 信息 ,如 投 融 资 事件 .收购 重组 事件 等 。 这 
些 桂 件 能 用 于 辅助 企业 进行 信息 决策 ,同时 还 能 为 构 
建 急 融 事件 体系 及 知识 图 谱 提 供 底层 技术 支持 ,具有 
重要 应 用 价值 。 如 何 有 效 获取 这 些 事件 信息 一 直 是 业 
界 与 学 界 共同 关注 的 问题 ,其 主要 途径 是 对 领域 文本 
进行 事件 抽取 。 

事件 抽取 是 从 自然 语言 文本 中 识别 特定 的 事件 类 
型 ,同时 抽取 出 与 事件 表达 相关 的 时 间 、 地 点 、 人 物 等 
要 素 , 最 终 以 结构 化 的 方式 时 现 出 来 ””。 通 党 来 说 , 事 
件 抽取 包括 两 个 子 任务 :四 事件 检测 与 分 类 ;@ 事 件 要 
素 识别 与 分 类 。 事 件 抽取 是 自然 语言 处 理 中 的 热点 研 
究 问题 ,近年 来 得 到 了 学 术 界 的 广泛 关注 ,在 信息 抽取 


方向 的 主要 评测 会 议 ACE(automatic content extraction ) 
中 专门 设 定 了 事件 抽取 的 评测 分 支 。ACE 定义 了 共计 
33 种 事件 类 型 ,涉及 出 生死 亡 、 公 司 成 立 、 交 通 後 事 、 
入 狱 释 放 等 多 样 化 领域 ,并 提供 了 多 种 语言 的 平行 标 
注 语 料 供 评测 ” ,目前 大 多 数 研 究 均 针 对 ACE2005 的 
语 料 进行 优化 与 实验 。 

金融 事件 抽取 由 在 通过 对 金融 文本 进行 快速 量 准 
确 的 信息 抽取 ,根据 业务 需求 提取 出 其 中 关键 的 事件 
信息 。 金 融 事件 抽取 有 着 较为 明显 的 领域 需求 特点 ， 
主要 体现 在 事件 类 型 相对 专业 化 事件 要 素 识别 准确 
率 要 求 较 高 这 两 个 方面 ,直接 移植 传统 事件 抽取 会 存 
在 以 下 几 点 问题 :中 金融 事件 类 别 分 布 稀 玻 , 如 
ACE2005 仅 包 含 633 篇 中 文 文档 ,涵盖 33 类 事件 , 训 
练 语 料 过 少量 很 多 类 别 与 金融 领域 关注 的 事件 无 关 
(如 死亡 攻击、 示威 游行 等 ) ,并 且 事 件 类 别 过 多 会 导 
致 抽取 模型 存在 较为 严重 的 过 拟 合 ;@ 事 件 句 分 类 和 
和 件 要 素 抽取 准确 率 不 足 ,抽取 模型 需要 进一步 优化 ; 
事件 分 类 与 事件 元 素 抽取 两 个 子 任务 独立 建 模 , 任 
务 之 间 易 发 生 错 误 传播 。 因 此 金融 领域 的 事件 抽取 任 
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务 需 要 有 更 具 针 对 性 的 语 料 积累 和 抽取 方法 。 

基于 上 述 原因 ,本 文 聚焦 于 金融 领域 事件 抽取 的 
实际 需求 ,深入 探讨 了 其 中 的 关键 技术 问题 ,并 提出 了 
新 的 金融 事件 抽取 方法 。 本 文 主要 工作 集中 体现 在 以 
下 三 个 方面 :OD 建立 金融 领域 事件 分 类 体系 ,收集 金融 
资讯 网 站 的 真实 新 闻 语 料 , 经 预 处 理 后 按照 事件 抽取 
任务 的 需求 进行 字 级 别 的 BIO 标注 ;@ 针 对 金融 领域 
文本 的 特点 ,提出 了 一 种 融合 预 训练 语言 模型 BERT 
与 多 层 卷 积 神经 网 络 ” 的 事件 联合 抽取 方法 BERT- 
MultiCNN ,分 层 捕捉 句 中 的 事件 语义 信息 ,进一步 提升 
事件 抽取 效果 ;@ 引 入 两 阶段 联合 学 习 机 制 来 处 理 多 
任务 协同 问题 ,解决 流水 线 模型 中 的 错误 传播 问题 ,并 
通过 对 比 损失 建立 了 任务 间 的 合理 关联 ,使 得 第 一 步 
事件 分 类 的 错误 可 以 通过 共享 下 一 步 要 素 抽取 任务 中 
的 信息 来 进行 纠正 。 论 文 设计 了 相关 对 照 实验 及 探索 
实验 ,实验 结果 表明 ,本 文 提出 的 模型 在 中 文 金 融 事件 
"lie I. F, ESSI 82. 20% ,能 够 进一步 提升 现 有 金 
柄 蚤 件 抽取 两 阶段 子 任务 的 效果 ,具有 较 高 的 应 用 价 


〇 事件 抽取 是 自然 语言 处 理 中 的 关键 任务 之 一 ,在 


种 特征 ,将 其 作为 机 器 学 习 模 型 的 输入 从 而 实现 自动 
化 的 事件 抽取 ,常见 的 机 器 学 习 模 型 有 支持 向 量 机 
(SVM) .条 件 随机 场 (CRF) 、 隐 马尔 可 夫 模 型 (HMM) 
等 。 李 响 与 杨 小 琳 等 '" 通过 设计 词法 .句法 和 语义 三 
类 特征 ,然后 利用 支持 向 量 机 实现 了 新 闻 事件 的 分 类 ， 
L. Hou 等 加 利用 条 件 随机 场 进 行 机 器 学 习 模 型 的 构 
建 ,通过 融合 词汇 特征 .语义 、 依 存 关 系 、 句 法 关系 、 相 
对 位 置 这 5 类 特征 ,并 加 入 语义 角色 特征 实现 事件 抽 
取 。 基 于 机 器 学 习 的 方法 难点 在 于 特征 的 选择 以 及 组 
合 ,不 同学 者 之 间 研 究 的 差异 也 主要 体现 在 特征 的 选 
择 以 及 机 器 学 习 模 型 的 选择 方面 ,因此 这 种 方式 难以 
避免 地 会 出 现 主观 偏差。 

与 传统 机 器 学 习 的 方式 不 同 , 利 用 深度 学 习 做 事 
件 抽取 的 任务 ,一般 逻辑 是 将 文本 序列 表示 为 一 段 可 
计算 的 多 维 张 量 , 通 过 构建 端 到 端的 深度 学 习 模型 实 
现 事 件 触发 词 与 事件 要 素 的 分 类 。 事 件 句 分 类 则 等 价 
于 对 该 张 量 进行 k 分 类 (k 为 事件 句 的 类 别 +1, 多 出 
来 的 一 类 表示 非 事件 句 ) , 若 要 实现 事件 元 素 的 抽取 ， 
则 需要 对 每 个 位 置 的 向 量 表示 进行 类 别 总 数 为 t 的 多 
分 类 (t 为 所 有 事件 元 素 类 别 数 +1, 多 出 来 的 一 类 表示 
非 事件 元 素 标签 ) 。 这 种 方式 通常 不 需要 事先 进行 特 
征 工程 ,可 以 降低 主观 意愿 对 模型 输入 的 影响 ,实际 使 


贤 筷 分 析 ` 语 义理 解 , 文 本 摘要 等 方面 应 用 广阔 ,国内 
外 请 多 学 者 在 此 方面 均 进行 了 广泛 的 研究 ,经 整理 , 事 
伟 狐 取 目 前 的 研究 可 以 大 致 分 为 三 大 类 :基于 模式 中 
配 欧 方法 .基于 特征 构造 的 机 器 学 习 方法 .基于 深度 学 
习 的 方法 。 
0 模式 匹配 的 方法 ,通常 是 在 领域 专家 的 帮助 下 设 
计 规 范 的 抽取 规则 或 者 模板 ,其 核心 在 于 模式 的 构建 。 
W E. Riloff 等 提出 的 AutoSlog' ,以 及 后 面 的 改进 版 
AutoSlog-TS ,可 以 利用 模式 词典 构建 模板 从 而 实现 
自动 抽取 ,还 能 根据 现 有 模式 去 学 习 新 的 模式 ,在 一 定 
程度 上 降低 了 人 工 构建 规则 的 成 本 。 在 金融 领域 ,R. 
Feldman 等 通过 构建 金融 情感 词典 ,实现 短语 级 别 的 
情感 极 性 匹配 并 制定 了 事件 抽取 规则 ; 罗 明 等 中 通过 
定义 金融 领域 的 事件 表示 模型 ,使 用 词 向 量 工具 自动 
生成 同义词 ,然后 基于 规则 模式 实现 多 种 金融 事件 的 
抽取 。 总 结 而 言 ,利用 模式 匹配 的 方法 通常 需要 大 量 
规范 的 抽取 规则 ,构建 成 本 较 高 且 不 具有 通用 性 ,因此 
在 应 用 时 存在 较 大 局 限 性 。 

随 着 机 器 学 习 技术 在 语音 、 翻 译 等 领域 的 广泛 成 
功 , 诸 多 学 者 逐渐 将 目光 转向 了 利用 机 器 学 习 的 方式 
进行 抽取 。 这 种 方式 通过 构建 词法 ,句法 . 词 位 置 等 多 


用 中 , 卷 积 神经 网 络 (CNN“*”"”"” ) 循环 神经 网 络 
(RNN Be ) ~ Transformer 编码 器 ”以 及 神经 网 
A 0T 是 应 用 最 为 广泛 的 特征 抽取 器 。 如 六 . 
Chen 等 "| 最 先 利用 深度 神经 网 络 架 构 进 行事 件 抽 取 
任务 ,通过 设计 动态 多 池 化 卷 积 神经 网 络 (DMCNN ) ， 
融合 了 词 向 量 \ 位 置 向 量 以 及 实体 类 型 向 量 ,完成 事件 
分 类 与 要 素 抽取 两 大 任务 ;TH.， Nguyen 等 利用 
Bi-GRU 对 句子 进行 编码 ,通过 设计 不 同 的 记忆 和 抢 阵 对 
大 件 分 类 要 素 识别 这 两 大 任务 进行 联合 抽取 ,减少 了 
错误 传播 ;S. Zheng 等 "为 了 解决 事件 论 元 分 散在 多 
个 句子 中 的 问题 ,提出 了 一 种 端 到 端的 解决 方案 
Doc2EDACG ,通过 生成 基于 实体 的 有 向 无 环 图 ,使 用 多 
个 Transformer 对 图 进行 编码 ;图 模型 层面 ,不 少 学 者 通 
过 将 句子 序列 视 为 一 个 有 向 无 环 图 ,利用 图 神经 网 络 
模型 实现 事件 的 分 类 抽取 ,如 T. H. Nguyen 等 ”提出 
一 个 基于 句法 依存 树 的 图 卷 积 (GCN ) 神经 网 络 用 于 事 
件 检测 ,后 来 S，Cui 等 “在 其 基础 上 ,提出 了 一 种 新 
型 的 关系 感知 GCN ( RA-GCN ) 结构 ,人 研究 了 不 同 句 法 
关系 标签 对 事件 抽取 的 影响 ,进一步 优化 了 前 面 的 工 
作 。 横 向 对 比 来 看 , 几 大 基于 深度 学 习 的 方法 实现 事 
件 抽 取 ,其 优 缺点 对 比如 表 1 所 示 : 
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， 程 威 ， 唐 小 雅 ,等 .基于 多 层 卷 积 神 经 网 络 的 金融 事件 联合 抽取 方法 [可 .图 书 情报 工作 ,2021 ,65(24):89 - 99. 


R1 基于 深度 学 习 实现 事件 抽取 的 方法 对 比 


编码 器 优点 缺点 
CNN (1) 参数 共享 机 制 利于 模型 训练 ; (1) 网 络 结构 浅 层 导致 语义 编码 能 力 有 限 ; 
(2) 可 以 捕捉 局 部 窗口 信息 ; (2) 缺少 位 置 编码 信息 ,对 于 词 级 别 分 类 有 较 大 损失 ; 
(3) 池 化 方式 可 多 样 化 ,以 优化 句 向 量 表达 (3) 卷 积 结构 单一 ,对 于 事件 元 素 抽 取 类 任务 准确 率 不 高 
RNN (1) 序列 方式 建 模 符合 对 序列 文本 的 直观 理解 ; (1) 仍然 存在 短期 记忆 问题 ,对 句 向量 表示 有 待 优化 ; 
(2) 多 种 RNN 变种 可 以 存储 上 下 文 信息 (2) 每 个 时 间 步 逐步 输出 ,计算 效率 低 
Transformer (1) 语义 编码 能 力 更 加 强大 \ 高 效 ; (1). 参数 量 太 大 ,在 一 定 程 度 上 影响 模型 效率 ; 


(2) 基于 注意 力 机 制 ,可 以 建 模 任 意 两 个 位 置 的 关联 信息 ; 
(3) 基于 预 训练 架构 ,无 监督 语义 信息 更 加 丰富 


Craph (1). 非 欧 空间 建 模 , 有 助 于 捕 提 语句 中 的 非 连续 依赖 关系 ; 
(2) 天 然 适合 建 模 句法 层面 的 事件 元 素 依赖 关系 
混合 编码 器 (1) 可 以 分 别 利用 各 个 编码 器 的 优势 ,取长补短 ; 


(2) 可 以 对 两 个 任务 进行 分 层 建 模 , 分 步 优 化 


将 机 器 学 习 和 深度 学 习 应 用 到 金融 领域 的 事件 抽 
取 任务 ,也 一 直 是 学 术 界 和 工业 界 重点 关注 的 问题 。 
除 子 前 文 所 述 的 模型 层面 的 探索 与 使 用 ,金融 事件 
秘 沁 包含 以 下 两 个 应 用 方面 的 研究 :D 语 料 获取 方面 ， 
ARS ID LIE SE] Jr c EROR VCI IU E CE HEEL, H. 
VER 等 ”通过 远程 监督 的 方式 获取 更 多 的 金融 领域 
标 津 语 料 ,然后 利用 BiLSTM-CRF 实现 句子 级 及 篇 章 
级 现 事 件 抽 取 ;L，Fin-Dor 等 则 利用 维基 百科 数据 ， 
| 动 化 提取 人 金融 事件 中 的 弱 标 签 ,并 利用 相关 实验 证 
EDATE HARE; Z. Zhou 等 ”提出 了 一 个 高 低 
戏 训 事 件 检测 模型 ,用 于 识别 篇 章 级 企业 金融 事件 , 同 
时 县 于 新 闻 语 料 开发 了 一 个 新 的 数据 集 EDT, 用 于 畏 
助 编 业 事件 识别 与 股票 价格 预测 任务 ;@ 输 出 结果 方 
面 G 爹 融 事 件 抽取 一 般 需 要 有 明确 的 应 用 目标 ,S. 
Rünnqvist 等 "利用 深度 学 习 模 型 抽取 新 闻 中 的 金融 
风险 事件 ,并 利用 抽取 结果 对 银行 危机 指数 及 政府 
干预 情况 输出 分 析 报告 ;S，Carta 等 ”利用 层次 化 取 
类 的 方法 对 金融 事件 进行 分 类 ,一 方面 向 用 户 提供 
每 日 新 闻 的 结构 化 摘要 信息 , 另 一 方面 可 以 提醒 用 
户 一 些 可 能 发 生 的 法 在 重要 事件 ;L，D，Coro 等 
通过 设计 一 个 独特 的 注意 力 网 络 处 理 大 量 新 闻 标题 
数据 ,用 来 预测 给 定 股票 的 价格 变动 情况 ( 涨 / 跌 / 
平 ) ,可 以 在 不 需要 标记 数据 的 条 件 下 达到 较 好 的 股 
票 预测 效果 。 

综 上 可 知 , 早 期 事件 抽取 的 研究 主要 集中 在 基于 
规则 构建 模板 的 方式 ,这 种 方式 需要 大 量 的 人 工 规则 ， 
且 不 具有 通用 性 。 随 着 深度 学 习 模 型 结构 的 发 展 ,最 
新 研究 主要 通过 深度 学 习 进 行事 件 抽取 ,由 于 预 训练 
模型 具有 丰富 的 语义 表达 能 力 ,在 预 训练 模型 基础 上 
搭建 个 性 化 的 抽取 模型 ,并 通过 联合 训练 的 方式 微调 


(2) 预 训练 模型 无 法 解决 一 词 多 义 问题 


(1) 参数 量 大 ,训练 慢 上 且 易 发 生 过 平滑 ; 

(2) 需要 进行 分 词 及 句法 分 析 ,前 后 任务 存在 较 大 错误 传播 问题 

(1) 存在 错误 传播 问题 ; 

(2) 存在 多 任务 协同 问题 
模型 参数 也 逐渐 成 为 完成 事件 抽取 的 主流 方法 。 然 而 
目前 基于 预 训练 模型 的 事件 抽取 相关 研究 大 都 将 语义 
捕 提 的 任务 交 予 普 适 性 较 强 的 预 训练 模型 完成 ,对 单 
个 句子 局 部 信息 的 捕 提 缺乏 针对 性 。 卷 积 神经 网 络 
(CNN) 利 用 卷 积 核 共 享 机 制 ,可 以 充分 利用 局 部 窗口 
内 的 上 下 文 信息 对 特征 进行 提取 ,在 文本 分 类 “” JR 
列 标注 “事件 抽取 '"“ ”等 方面 均 取 得 了 很 好 
的 效果 ,然而 将 这 些 研究 移植 到 事件 抽取 这 一 任务 中 
时 ,可 能 存在 以 下 几 点 问题 : 

。 特征 提取 方面 :以 往 研 究 大 都 通过 站 加 词 向 
.词法 ,句法 等 维度 特征 ,并 用 CNN 进行 特征 提取 与 
合 ,而 受 限于 CNN 网 络 结构 本 身 的 浅 层 ,其 语义 编 
DEHA R; 

。 CNN 结构 方面 : 卷 积 结构 过 于 单一 ,只 能 通过 
优化 卷 积 层 数 .改进 池 化 方式 等 方式 优化 整体 架构 ; 

。 利 用 CNN 分 别 卷 积 ,独立 进行 事件 分 类 和 事件 
要 素 抽取 ,会 造成 两 个 任务 之 间 的 错误 传播 。 

基于 此 ,本 文 结合 预 训练 模型 与 CNN 两 者 的 优 
点 , 先 利用 预 训练 语言 模型 BERT 进行 通用 语义 信息 
提取 ,再 设计 独特 的 多 层 卷 积 神经 网 络 用 于 分 层 捕捉 
局 部 信息 ,并 对 两 阶段 任务 进行 联合 端 到 端 训练 ,最 终 
实现 事件 句 分 类 和 要 素 抽取 任务 。 


3 ”金融 事件 联合 抽取 方法 介绍 


本 文 提出 一 种 金融 事件 联合 抽取 方法 ,该 方法 可 
有 效 解决 事件 抽取 中 错误 传播 的 问题 。 为 了 获取 金融 
领域 的 典型 事件 , 先 构 建 了 金融 事件 分 类 体系 ;为 了 进 
行 模型 优化 与 抽取 方案 有 效 性 的 检测 ,选择 了 收购 重 
组 ,战略 合作 、 投 融资 这 3 类 重点 事件 进行 语 料 标注 ， 
并 在 此 基础 上 进行 相关 优化 及 探索 实验 。 
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3.1 金融 事件 分 类 体系 

结合 对 金融 领域 的 背景 调研 ,本文 初步 建立 了 金 
融 事件 分 类 体系 ,并 从 公司 金融 的 角度 对 事件 进行 分 
类 ,完整 分 类 后 的 事件 类 别 及 其 细 分 事件 名 称 如 表 2 
所 示 。 同 时 ,为 了 针对 具体 事件 类 别 获 取 广 泛 的 抽取 
语 料 ,我 们 利用 关键 词 抽取 技术 对 事件 特征 词 进行 提 
取 , 并 利用 词 向 量 工具 Word2 Vec 7 进行 特征 词 的 扩 
展 ,根据 扩展 后 的 特征 词 集 合 搜集 大 量 的 中 文 事件 抽 
取 语 料 。 


表 2 金融 事件 分 类 


事件 类 别 事件 名 称 
并 购 重 组 ”公司 收购 资产 重组 混 改 ,撤销 重组 

财务 。 ”业绩 亏损 .中标 ,净利 购买 银行 理财 产品 注销 专项 账户 ,增值 

税 退税 

NS 治理。 资金 占用 .离职 辞职 , 减 持 股份 .撤销 职务 .召开 董事 会 ,权益 分 
派 . 召 开 临 时 股东 大 会 .变更 实际 控制 人 
上 涨 . 下 跌停 牌 .复牌 涨停 .跌停 .股价 异动 .股份 转让 ,股权 
质 抑 \ 定 增 , 非 公开 发 行 股票 ,发行 限 售 股份 .股权 解 押 
关注 函 违规 举 牌 .回应 函 行政 处 罚 、 信 息 披 名 违法 , 列 为 失信 
被 执行 人 、 问 询 函 ,处 以 罚款 ,证 监 会 点 名 , 反 玲 断 罚 款 , 列 入 黑 
名 单 .监管 行政 监管 .强制 退 市 强制 摘牌 
债务 违约 ,企业 负债 .账户 冻结 ,账户 解冻 ,强行 划 款 ,借款 , 银 
ET 
Glot EYE .股东 虚假 出 资 票据 违法 ,违规 担保 ,虚报 注册 资本 、 
O ERRERA RANI 
股票 简称 变更 撤销 登记 工商 变更 ,债券 名 称 变更 .协议 违约 、 
战略 合作 


问题 定义 
tO 


金融 领域 的 事件 抽取 工作 的 任务 一 般 定义 为 :从 


非 桂 构 化 的 文本 中 自动 化 地 抽取 出 关键 事件 ,以 及 访 
事 修 包含 的 事件 元 素 (如 时 间 、 地 点 ,事件 主体 等 ) ,得 
到 关于 事件 的 结构 化 表述 。 如 下 面 例句 所 示 , 模 型 需 
要 将 其 判定 为 战略 合作 事件 ,并 抽取 出 事件 触发 词 ( 战 
略 合作 ) .合作 公司 (海天 水 务 集团 ) .合作 公司 (中 信 
银行 成 都 分 行 ) .事件 发 生 时 间 (4 月 6 日 ) .事件 发 生 
地 点 (成 都 ) 这 些 事件 要 素 ,具体 到 每 个 字符 的 标签 空 
间 ,可 参照 表 3 所 示 。 

例句 :4 月 6 日 ,海天 水 务 集团 与 中 信和 银行 成 都 分 
行 在 成 都 签署 战略 合作 协议 。 

表 3 事件 抽取 字符 与 正确 标签 对 应 关系 

(4 月 6 H ， 海 天 水 务 集 H 


B-time I-time Itime Itime 


O  B-epn I epn I- epn I- cpn I- cpn I- cpn 
与 中 di o. 行 成 都 分 行 在 成 
O B-cpn I- epn I- cpn I- cpn I-cpn I- cpn I-cpn LI-cpn 0  B-loc 
都 签 E R "m 合 作 Ww W 

Llc 0 0 


B-tig l-tig Ltig I-trig O 0 0 


针对 事件 句 分 类 与 事件 元 素 识别 这 两 个 阶段 的 子 
任务 ,目前 存在 两 种 主要 的 处 理 方式 , 即 串 行 (Pipe- 
line) 和 联合 (Joint) 事 件 抽取 , 串 行 的 方式 首先 进行 事 
件 类 型 的 检测 ,然后 从 事件 句 中 抽取 出 相应 的 事件 要 
素 ,而 联合 抽取 则 是 同时 完成 事件 识别 与 要 素 抽取 这 
两 个 任务 。 由 于 串 行 方 式 的 架构 易 发 生 误 差 传播 , 即 
第 一 阶段 事件 句 分 类 的 错误 会 影响 到 下 一 步 的 事件 元 
素 识 别 , 本 文采 用 联合 抽取 的 方式 对 事件 抽取 的 两 个 
任务 进行 建 模 。 具 体 而 言 ,将 事件 句 识 别 的 任务 视 为 
一 个 句子 分 类 任务 ,事件 触发 词 以 及 事件 元 素 的 识别 
视 为 一 个 字符 级 别 的 序列 标注 任务 ,通过 构建 端 到 端 
的 深度 学 习 模 型 对 事件 抽取 任务 进行 建 模 。 

3.3 ”方法 概述 

为 了 完成 金融 事件 抽取 中 事件 分 类 与 事件 元 素 抽 
取 这 两 个 子 任务 ,本 文 提出 了 一 种 基于 多 层 卷 积 神经 
网 络 的 金融 事件 联合 抽取 方法 BERT-MultiCNN。 首 先 
利用 BERT 强大 的 语义 编码 能 力 对 句子 序列 进行 向 量 
编码 ,得 到 每 个 token 位 置 的 隐 层 向 量 编码 H, 以 及 名 
子 向 量 编码 C ,然后 将 玉 通过 多 层 卷 积 神经 网 络 架 
构 ,进一步 提取 句子 的 局 部 语义 信息 ,得 到 向 量 编码 
H, ,然后 将 于 输入 全 连接 层 的 分 类 模型 ,抽取 得 到 每 
个 位 置 的 序列 标签 分 布 ,最 后 利用 CRF 层 控制 标签 输 
出 ,得 到 事件 要 素 和 触发 词 的 抽取 结果 。 为 了 达到 联 
合 抽取 的 效果, 一 方面 将 其 设置 为 端 到 端的 一 个 统一 
架构 ,使 两 个 任务 损失 优化 的 方向 得 到 统一 ; 另 一 方 
面 , 对 后 一 个 任务 做 序列 标注 的 同时 ,对 玉 做 Pooling 
操作 得 到 句子 向 量 编码 C, ,与 前 面 的 句子 向 量 编码 C, 
融合 得 到 事件 分 类 的 结果 ,并 计算 对 比 损失 ,该 损失 共 
同形 成 优化 目标 。 模 型 整体 架构 如 图 1 所 示 , 由 输入 
JZ BERT 编码 层 .MultiCNN 层 ,全 连接 层 、CRF 层 以 及 
前 后 事件 句 表示 的 对 比 损失 所 组 成 。 

本 文 模 型 创新 性 主要 体现 在 以 下 几 个 方面 :四 融 
合 预 训练 模型 和 传统 卷 积 架构 的 共同 优点 ,分 别 应 用 
于 事件 抽取 的 两 个 任务 ,使 其 分 别 作用 于 句子 及 token 
级 别 的 优化 ;引入 联合 抽取 模式 完成 事件 抽取 两 步 
又 ,解决 错误 传播 问题 ;@) 引 入 事件 句 的 句 向 量 对 比方 
案 ,以 进一步 优化 多 任务 协同 问题 。 

3.3.1 BERT 编码 层 

本 文 利 用 谷歌 发 布 的 预 训练 模型 BERTH 作为 词 
向 量 编码 器 ,BERT 模型 的 主要 构成 单元 为 Transform- 
er. 的 Encoder 部 分 ,通过 堆 莫 多 层 双向 的 Transformer 
结构 ,可 以 用 来 捕捉 句子 序列 中 的 双向 深层 次 语义 信 
息 ,BERT 输入 向 量 包 含 三 个 维度 :Token Embeddinng 
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日 ， 海 天 水 务 集团 与 中 信 银 行 成 都 分 行 在 成 都 签署 战略 合作 协议 


1 模型 整体 架构 


词 向 量 , 可 以 使 用 one-hot 编码 或 者 使 用 常见 的 公 
F 词 向 量 ( 如 Word2Vec"* | Glove?" 等 ) ,对 于 中 文 来 
谱 汉 般 是 针对 单字 的 字 向 量 ;Position Embedding 表示 
位 署 向 量 , 采 用 相对 位 置 编码 对 序列 中 每 个 字符 的 位 
器 进行 建 模 ;Segment Embedding 表示 句 间 分 隔 向 量 ， 
用 来 标识 输入 的 部 分 属于 哪 一 个 句子 。BERT 的 输入 
向 三 由 这 三 部 分 直接 相 加 得 到 : 

i E ppu = E roken + E position 公式 (1) 
得 到 BERT 模型 输入 后 ,进入 Transformer 结构 的 
Encoder 部 分 ,该 部 分 主要 由 多 头 自 注意 力 机 制 (Multi- 


+ E nds 


数 ,中 间 使 用 Relu 函数 加 以 激活 。 
FFN(x) =7ax(0,x 有 +) W, +b, 公式 (5) 
另外 ,Transformer 结构 中 的 多 头 自 注 意 力 机 制 以 
及 前 馈 神经 网 络 之 后 都 加 入 了 残 差 连接 和 层 归 一 化 
(Add & Norm) 的 操作 ,可 以 使 得 训练 过 程 更 加 容易 ， 
同时 能 很 好 地 避免 梯度 消失 问题 。 经 过 BERT 编码 
后 , 取 最 后 一 层 的 输出 作为 最 终 的 编码 表示 ,其 中 句子 
序列 的 每 一 个 位 置 都 对 应 一 个 维度 为 768 维 的 隐 层 向 
量 , 最 前 面 的 [ CLS] 位 即 表示 句子 分 类 向 量 , 接 一 个 全 
连接 层 后 用 于 事件 句 分 类 ,用 C, 进行 表示 。 
H, = BERT( Eppa) 公式 (6) 
C, FC, CH,[0,:,:]) 公式 (7) 
3.3.2 MultiCNN 层 
卷 积 神经 网 络 (CNN) 是 一 种 特殊 的 深度 前 馈 神经 
网 络 , 最 初 被 广泛 应 用 于 计算 机 视觉 领域 ,其 思想 来 源 
于 人 类 的 视觉 系统 ,借鉴 其 中 的 感受 野 (receptive 
field) 概念, 从 而 可 以 接受 来 自 不 同 区 域 的 信号 ,对 其 
进行 整合 然后 作为 自己 的 特征 图 输出 ”*” 。 后 来 被 
相关 领域 的 学 者 逐渐 应 用 到 文本 处 理 领 域 ,如 文本 分 
类 ,序列 标注 等 “””" ”i ,同样 也 取得 了 非常 不 错 的 效 
果 。 在 实际 使 用 中 ,一 般 由 耕 干 卷 积 层 、 池 化 层 、 激 活 
层 组 合 而 成 。 
在 事件 抽取 的 触发 词 识别 .事件 要 素 识别 任务 上 ， 
本 文 将 其 视 为 一 个 字 级 别 的 序列 标注 任务 ,用 BIO 
标签 分 别 表示 触发 词 和 事件 要 素 的 实体 起 始 位 置 ( Be- 
gin) .实体 内 部 (Inside) 和 非 实 体 部 分 (Outside ) ,这 样 
可 以 对 句子 的 所 有 位 置 同时 进行 分 类 ,提升 训练 效率 。 
本 文 利用 一 维 卷 积 核 在 句子 序列 的 方向 上 进行 滑动 ， 
捕捉 每 个 位 置 字 的 语义 信息 及 其 上 下 文 窗口 特征 ,最 
后 综合 得 到 的 特征 图 (feature map ) 作为 每 个 位 置 的 向 


head Self-attention ) 以 及 前 馈 神 经 网 络 组 成 。 自 注意 力 
机 制 可 以 让 模型 学 习 到 序列 中 两 两 位 置 之 间 的 关系 ， 
并 赋值 不 同 的 权重 , “多头” 意味 着 同时 利用 多 个 视角 


量 输出 ,不 同 大 小 的 卷 积 核 可 以 捕捉 的 局 部 窗口 大 小 
不 同 。 为 了 保持 序列 长 度 的 不 变性 ,我 们 对 不 同 大 小 
的 卷 积 核 设计 了 对 应 的 padding 操作 ,用 于 填充 句子 的 


进行 计算 ,以便 关 注 句 子 序列 中 不 同 角 度 的 信息 ,最 后 
将 来 自 所 有 注意 力 头 的 信息 进行 拼接 ,计算 细节 如 公 
式 (2) -公式 (4) 所 示 : 


T 


Attention (Q,K,V) = vofimas( Ex V 公式 (2) 


Vd 

head, = Attention ( QW," , KW," ,VW,') 公式 (3) 
MultiHead ( Q, K, V) = Concat ( head, , head, , +, 
head,) W° 公式 (4) 
这 里 的 前 馈 神 经 网 络 为 全 连接 层 , 被 单独 应 用 到 
序列 的 每 一 个 位 置 ,具体 而 言 ,包括 两 个 线性 转换 函 


首尾 部 分 ,长 度 为 3 的 卷 积 核 提 取 特 征 的 过 程 见 图 2。 
具体 而 言 ,本 文 进 行 了 局 部 窗口 卷 积 、 语 义 信息 提 
升 两 个 阶段 :中 局 部 窗口 卷 积 上 ,为 句子 序列 分 别 设计 
T kernel 为 3 和 5 的 两 种 卷 积 操作 去 并 行 化 处 理 , 然 
后 将 两 者 得 到 的 特征 图 进行 堆 秋 ; 书 语 义 信息 提 升 阶 
段 , 接 上 三 层 卷 积 核 大 小 为 5 的 卷 积 操作 ,用 来 提取 高 
层 语义 空间 信息 ,整体 架构 如 图 1 所 示 。 最 后 , 卷 积 层 
的 输出 结果 进入 全 连接 层 进行 维度 的 转换 ,得 到 最 终 
标签 分 类 概率 P ase o 
H,  MultiCNN( 万) 


公式 (8 ) 
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图 2 序列 卷 积 
P age, = FCCH,) 公式 (9) 
3.3.3 CRF 层 


三 事件 触发 词 识别 、 事 件 要 素 识别 均 可 以 视 为 一 个 
RIRES ,而 传统 的 softmax 分 类 器 未 考虑 到 标签 
这 加 的 依赖 与 转移 概率 ,因此 容易 出 现 标签 偏差 问题 。 
PB LES ( CRF) 可 以 对 序列 标签 之 间 的 依赖 关系 进 
行 建 模 ,在 词性 标注 分 词 \ 命 名 实体 识别 等 任务 中 取 
RAT DC RO CRF 可 以 对 整个 句子 的 标签 
进行 联合 建 模 ,我 们 利用 CRF 层 对 标签 输出 进行 
Sio URARTE X= uxorum, Lf 
DERA REFIK y = 17,,y,，,…,y,,| , 则 整个 句子 
序列 的 综合 得 分 由 节点 得 分 (标签 分 数 ) 和 路 径 得 分 
( 狐 佬 转移 分 数 ) 相 加 得 到 ， 

© — sy = T, ELS 公式 (10) 
.二 其 中 表示 节点 得 分 ,即将 第 i 个 位 置 的 输入 预 
测 河 ;标签 的 概率 ,可 以 由 上 游 输出 的 发 射 概率 逢 阵 
得 到 ;7 表示 路 径 得 分 , 即 由 y, 标签 转移 到 y,, ,标签 的 
概率 ,如 果 标签 的 数量 为 w, 则 了 为 一 个 nx 的 矩阵 ， 
该 矩阵 需要 在 训练 过 程 中 进行 拟 合 。 我 们 的 训练 目标 
是 正确 路 径 的 得 分 最 大 化 ,对 所 有 路 径 得 分 做 全 局 归 
一 化 后 ,得 到 正确 路 径 的 归 一 化 概率 : 

e(X,Y ) 
2; 


s(X,y) 
ey; € 


P(y* | X)= 公式 (11) 


训练 过 程 中 的 优化 目标 便 为 正确 路 径 的 最 大 似 
然 , 即 log P(y”| X) ,预测 时 ,根据 句子 标签 序列 的 预 
测 概率 进行 维特 比 解 码 , 即 可 得 到 最 终 的 正确 标签 。 
3.3.4 训练 损失 

在 事件 句 分 类 子 任务 中 ,我 们 使 用 了 交 又 炉 损 失 
(Cross Entropy Loss) ,用 来 衡量 正确 分 类 与 预测 分 类 之 
间 概 率 分 布 的 差距 ,假设 正确 的 事件 类 别 分 布 为 Q, 
预测 的 事件 类 别 分 布 为 Pi , 则 事件 句 的 分 类 损失 


Loss, 定义 为 两 个 概率 分 布 的 交叉 焙 : 
P onene = Sofimax(C, ) 公式 (12) 
Loss,  H(P,,,,0,) = - È Qi (x) log, Pn (x) 
公式 (13) 
事件 要 素 识别 的 分 类 损失 Loss, ,为 了 将 联合 学 习 
模型 的 损失 进行 同步 训练 ,定义 为 CRF 层 最 大 似 然 的 
相反 数 : 
Loss, = -log P(y* | X) 公式 (14) 
在 对 事件 分 类 、 事 件 要 素 抽取 这 两 个 子 任务 进行 
联合 学 习 的 过 程 中 ,需要 对 这 两 个 任务 进行 关联 ,提高 
模型 的 泛 化 能 力 。 一 方面 ,对 上 述 两 个 任务 的 损失 进 
行 相 加 从 而 达到 信息 共享 的 效果 ; 男 一 方面 ,为 了 进 一 
步 融合 两 个 子 任务 的 语义 信息 ,我们 为 卷 积 前 后 的 句 
向 量 概率 分 布 增 加 了 一 个 对 比 损失 Loss;。 具 体 而 言 ， 
本 文 对 卷 积 层 输 出 的 隐 层 向 量 H, 进行 均值 池 化 后 ,得 
到 句 向 量 概率 分 布 C; ,对 比 损失 定义 为 句 向 量 概率 分 
布 C 和 C, 的 交 义 烂 , 直 观 上 理解 ,通过 缩小 卷 积 前 后 
的 句 向 量 表示 差距 ,可 以 使 得 模型 对 于 两 个 子 任务 的 
学 习 朝 着 同一 个 方向 更 新 ,从 而 强化 多 任务 学 习 的 交 
互 。 


Los, = - 3 C,(x) log, Ci (x) 公式 (15) 

联合 学 习 的 训练 损失 定义 为 三 种 损失 的 加 权 和 ， 
权 值 参数 的 比例 根据 实验 调整 得 到 : 

Loss = Loss, + Loss, +0. 5 * Loss, 


4 ”实验 与 分 析 


4.1 数据 来 源 

本 文 用 于 金融 领域 事件 抽取 的 语 料 为 自 建 语 料 ， 
利用 Python 疏 虫 从 新 闻 资 讯 网 站 财 新 网 (https:y/ 
www. caixin. com/ ) , ^j Z$ |] ( http://www. nbd. com. 
cn/) , EEROR lr ei 3 dS. BLUR) T IRURE C 
进行 切 分 .去 重 去 停 用 词 操作 ,为 了 得 到 一 批 成 熟 的 
高 质量 事件 标注 语 料 ,基于 开源 标注 系统 brat ( http :// 
brat. nlplab. org/) ,组 织 开 展 事件 句 以 及 事件 触发 词 、 
事件 要 素 的 标注 工作 ,整体 标注 流程 采用 BIO 字 级 别 
标注 模式 ,其 中 B 表示 begin , 即 一 个 实体 (触发 词 或 事 
件 要 素 ) 的 开始 ,I 表示 inside, 即 一 个 实体 的 非 起 始 位 
置 ,0 表示 outside , 即 无 关 字 符 , 如 对 于 句子 序列 “4 月 
6 日 海天 水 务 集团 与 中 信和 银行 成 都 分 行 在 
成 都 签署 战略 合作 协议 ” ,进行 标注 后 得 到 “1 B- 


time I-time I-time I-time B-cpn I-cpn I-cpn I- cpn I-cpn I- 


公式 (16) 


cpn O B-cpn I-cpn I-cpn I-cpn I-cpn I-cpn I-cpn I-cpn O 


B-loc I-loc O O B-trig I-trig I-trig I-trig O 0” ,最 前 面 标 
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注 的 1 表示 事件 句 类 型 (用 0 表示 非 事件 句 ) ,后 面 每 
个 位 置 对 应 一 个 字 级 别 token 的 标签 。 另 外 ,为 了 尽 可 


能 减少 标注 错误 ,我 们 前 期 组 织 了 标注 工作 及 背景 知 
识 的 统一 培训 ,标注 上 采取 了 2 人 平行 标注 1 人 标注 


审核 的 方式 。 最 终 标 注 完 成 的 语 料 统计 后 如 表 4 所 
示 ,按照 8:1:1 的 比例 分 别 构建 训练 集 、 验 证 集 和 测试 


集 数 据 。 表 4 事件 语 料 统计 
事件 名 称 标记 语 料 /篇 句子 数量 /名 事件 句 数量 /名 
战略 合作 720 16 074 1 112 
收购 重组 650 20 058 2 228 
投 融 资 156 14 251 1 400 
总 计 1 526 50 383 4 740 


4.2. 评价 标准 与 环境 配置 

本 本 文采 用 准确 率 ( 了 ) 召回 率 (R) 和 这 两 者 的 调和 
xt CF ARRET 当 事 件 句 分 类 正确 , 且 
对 到 事件 元 素 抽 取 也 正确 时 ,判定 为 模型 对 事件 要 素 
iust. 实验 环境 配置 如 表 5 所 示 : 


e A5 实验 环境 配置 
| 实验 环境 环境 配置 
操作 系统 Ubuntu16. 04.7 LTS x86 64 
CPU AMD Ryzen Threadripper 3970X 
GPU GeForce RTX 2080Ti 
d AF 250G 
a Python 3.6.12 
Pytorch 1.7.1 
深度 学 习 模 型 的 参数 如 表 6 所 示 : 
6 深度 学 习 模 型 参数 
参数 参数 值 
epoch 100 
max_seq_length 100 
learning_rate 3e-5 
batch, size 80 
dropout 0.5 


4.3. 基准 模型 对 比 

为 了 验证 本 文 提出 的 模型 的 有 效 性 ,我 们 加 入 了 
如 下 对 照 实 验 : 

(1) BILSTM-CRF ^' :用 于 解决 序列 标注 任务 的 经 


语义 信息 建 模 , 最 后 加 上 CRF 控制 标签 输出 。 

(3) IDCNN-CRF" ^", ph F. Yu 等 提出 的 膨胀 卷 

积 架 构 , 相 比 于 普通 卷 积 ,可 以 在 卷 积 尺寸 不 变 的 情况 

下 扩大 卷 积 操作 的 感受 野 ,后 来 由 E. Strubel 等 引入 
到 自然 语言 处 理 领域 ,将 4 个 相同 的 膨胀 卷 积 块 琶 在 
一 起 ,每 个 块 都 包含 膨胀 宽度 分 别 为 1.1、.2 的 三 层 架 
构 。 

(4) BERT-IDCNN-CRF'?! :利用 预 训练 模型 BERT 
获取 语义 表示 ,膨胀 卷 积 用 于 提取 特征 ,最 后 加 上 CRF 
层 控 制 输出 。 本 文 提 出 的 BERT-MultiCNN 模型 与 各 基 
准 模型 效果 对 比如 表 7 所 示 : 

表 7 基准 模型 对 比 


Model P/496 R/% Fi/96 
BiLSTM-CRF 76.23 50.35 60. 64 
BERT-BiLSTM-CRF 82.35 77.05 79.61 
IDCNN-CRF 70. 43 55.61 62.15 
BERT-IDCNN-CRF 79.32 75.85 77.35 
BERT-MultiCNN 83.98 80. 49 82.20 


从 表 7 对 比 实验 的 结果 可 以 看 出 :在 RNN 和 
CNN 这 两 种 模式 的 架构 下 ,BERT 均 可 以 在 语义 信息 
提取 当中 起 到 至 关 重要 的 作用 , 预 训练 模型 采用 大 规 
模 语 料 学 习 的 方式 对 文本 上 下 文 信息 进行 有 效 建 模 ， 
可 以 极 大 地 提升 原始 基础 模型 的 效果 ,而 基础 模型 的 
作用 , 则 是 对 BERT 提取 的 信息 进行 进一步 扩展 与 整 
合 。 在 事件 抽取 这 一 任务 中 ,BERT 对 不 同 基础 结构 的 
提升 程度 对 比 是 : BiLSTM ( + 18. 97%) > IDCNN 
(+15.40% ) ,说 明 传统 的 双向 长 短期 记忆 网 络 在 加 入 
预 训练 模型 后 ,仍然 具有 较 大 的 提升 空间 ;BiLSTM 
在 对 句子 序列 建 模 方面 仍然 有 着 天 然 优 势 , 优 于 膨胀 
卷 积 IDCNN 的 特征 提取 效果 ,这 说 明 ,IDCNN 虽然 可 
以 通过 扩大 感受 野 的 方式 增加 局 部 感知 能 力 ,人 然而 即 
使 扩大 后 其 只 能 限定 在 固定 宽度 的 范围 内 ,对 于 事件 
要 素 之 间 的 特定 关联 却 无 法 正确 表达 ;@ 总 的 来 看 ,我 
们 提出 的 模型 BERT-MultiCNN 与 上 述 经 典 模型 相 比 ， 
准确 率 、 召 回 率 以 及 F1 值 均 有 了 不 同 程度 的 提升 , 相 
比 当 前 最 优 模型 BERT-BiLSTM-CRF 的 F1 值 提升 了 
2.59% ,说 明 这 一 架构 可 以 高 效 解决 事件 抽取 中 事件 


c 


地 


典 模型 ,最 初 被 用 于 命名 实体 识别 任务 ,由 双向 长 短 
时 记忆 网 络 和 条 件 随 机 场所 组 成 ,前 者 用 来 捕捉 序 
列 的 双向 语义 依赖 关系 ,后 者 用 来 控制 相 邻 标签 依 
赖 关 系 。 

(2) BERT-BiLSTM-CRF :利用 预 训练 模型 BERT 提 
取 语 义 信息 ,加 入 双向 长 短期 记忆 网 络 进 行进 一 步 的 


类 型 识别 和 事件 要 素 识 别 这 两 个 关键 任务 ,在 事件 联 
合 抽取 任务 上 有 较为 广阔 的 应 用 空间 。 
4.4 消融 实验 

为 了 分 析 我 们 所 提出 模型 的 每 个 模块 在 整个 事件 
抽取 任务 中 的 效果 贡献 ,本 文 加 入 了 如 下 消融 实验 , 实 
验 结果 如 表 8 所 示 : 
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表 8 消融 实验 
Model P/% R/% Fi/96 
Our. Model 83.98 80. 49 82.20 
-MultiCNN 81.24 79.43 80.32 
-CRF 82.41 78.62 80. 47 
-Loss3 84. 40 76.34 80. 17 


从 以 上 实验 结果 可 以 看 出 : 

(1) 加 入 本 文 提出 的 多 层 CNN 结构 后 ,模型 Fl 值 
提升 了 1.88% ,充分 说 明了 后 续 CNN 架构 对 编码 层 的 
语义 捕捉 进行 了 增强 ,可 以 有 效 捕捉 到 句子 局 部 窗口 
和 高 层 语义 空间 的 信息 ,对 于 深层 次 语义 建 模具 有 促 
进 作 用 。 

(2) 模 型 在 加 入 CRF 控制 标签 之 间 的 转移 后 , 准 
MEC +1.57% ) 和 召回 率 ( +1.87% ) 均 有 一 定 程度 


IET REI CRF 在 对 事件 要 素 标签 进行 建 模 方面 具 
O) 表 9 抽取 结果 展示 


有 一 定 的 作用 ,然而 受 限于 预 训练 模型 的 强大 效果 ,其 
提升 能 力 有 限 。 

(3) 去 除了 有 效 连 接 两 个 任务 之 间 的 对 比 损 失 之 
后 ,召回 率 急速 下 降 4.15% ,然而 准确 率 相差 不 大 ,说 
明 加 入 的 对 比 损失 的 确 可 以 充分 利用 第 一 阶段 事件 句 
分 类 的 信息 ,在 减少 错误 传播 的 同时 可 以 帮助 模型 识 
别 出 更 多 的 事件 实体 ,这 对 于 一 些 需 要 高 召回 的 场景 
具有 很 好 的 优化 作用 。 
4.5 抽取 结果 讨论 

经 实验 验证 ,本 文 提 出 的 基于 多 层 卷 积 神经 网 络 
的 金融 事件 联合 抽取 方法 ,可 以 在 没有 其 他 辅助 信 
息 的 条 件 下 对 原始 新 闻 文 本 进行 快速 且 准 确 的 抽 
取 , 得 到 标准 的 结构 化 事件 信息 ,抽取 实际 效果 如 表 
9 所 示 : 


9 输入 文本 事件 分 类 事件 元 素 抽 取 结 果 

2020 年 4 月 29 日 上 午 10 点 ,旅游 学 院 与 开封 清明 上 河 园 股份 有 限 1/ 战 略 合作 Trigger( 触发 词 ) :战略 合作 

六 到 战略 合作 签约 仪式 活动 在 清 园 会 议 室 成 功 举办 Company( 合作 公司 ) :旅游 学 院 

ed Company( 合 作 公司 ) :开封 清明 上 河 园 股份 有 限 公司 
© Time( 时 间 ):2020 年 4 月 29 日 F 午 10 点 

eo Location ( 地 点 ) : 清 园 会 议 室 

《各 江口 水 库 自 9 月 25 日 4 时 起 加 大 下 汇流 量 ,泄洪 流量 将 达 白 河 0/ 无 关注 事件 None 


区: 行 法 能 力 ,南阳 市 中 心 城区 低洼 处 有 较 大 可 能 形成 内 涝 
(ob 年 , 杉 杉 股份 布局 LCD 偏光 片 产业 , 募 资 收购 LG 化 学 偏光 片 
DL LCD 偏光 片 的 行业 龙头 


E mm 


1020 年 底 享 道 出 行 获得 阿里 巴巴 和 宁德 时 代 3 亿 元 A 轮 战 略 融 
交 比 次 融资 主要 用 于 发 展 企业 级 业务 


= 


E en: 
© 


同时 ,为 了 进一步 说 明 本 文 模型 对 于 事件 抽取 两 


2/ 收 购 重组 


Trigger( 触发 词 ) : 募 资 收购 
Company-1 收购 主体 ) : 杉 杉 股份 
Company-2( 收购 客体 ) :LC 化 学 
Time( 时 间 ) :2020 年 
Trigger( 触发 词 ) :融资 
Company-1( 投 融资 主体 ) :阿里 巴 
Company-1( 投 融资 主体 ) :宁德 时 代 
Company-2( 投 融资 客体 ) : 享 道 出 4 
Time( 时 间 ) :2020 年 底 

Round( 轮 次 ):A 轮 

Amount( 金 额 ) :3 亿 元 


3/ 投 融资 


H 


dl 


阶段 错误 传播 的 改进 作用 ,我 们 加 入 了 进一步 对 照 实 
验 , 对 比 不 同 模型 在 事件 分 类 和 元 素 抽 取 两 个 子 任务 
中 的 实际 效果 ,抽取 结果 见 表 10。 

根据 表 10 结果 可 以 看 出 ,以 往 模 型 在 解决 金融 事 
件 抽取 两 阶段 子 任务 时 ,事件 元 素 抽取 的 结果 强 依赖 
于 第 一 步骤 中 事件 分 类 的 结果 , 当 事 件 分 类 错误 (如 
BiLSTM-CRF .IDCNN-CRF) 时 ,后 序 元 素 抽取 便 毫 无 意 
义 , 而 本 文 提出 的 金融 事件 联合 抽取 方法 BERT-Mul- 
tiCNN, 可 以 在 保证 抽取 准确 率 ( 对 比 BERT-BiLSTM- 
CRF .BERT-IDCNN-CRF) 的 同时 ,融合 第 二 阶段 中 元 素 
抽取 的 结果 信息 对 事件 分 类 环节 进行 错误 纠正 ,以 达 
到 联合 学 习 的 目的 ,实现 整体 更 优 效果 。 


本 文 聚焦 于 金融 事件 抽取 中 事件 分 类 和 事件 要 素 
抽取 这 两 大 子 任务 ,针对 已 有 研究 中 对 卷 积 神经 网 络 
网 络 利用 不 充分 、 较 少 利 用 预 训 练 模 型 提取 语义 信息 、 
两 个 子 任 务 之 间 错 误 传 播 这 几 大 核心 问题 ,提出 了 融 
合 预 训练 模型 与 多 层 卷 积 神经 网 络 的 金融 事件 联合 抽 
取 框 架 BERT-MuliCNN , 先 通 过 预 训练 编码 模型 BERT 
进行 初级 语义 特征 提取 ,将 得 到 的 句 向 量 经 处 理 后 直 
接 用 于 事件 句 分 类 ,得 到 的 字 向 量 编码 经 多 层 卷 积 神 
经 网 络 处 理 后 ,得 到 隐藏 层 字 向 量 编码 ,并 用 于 事件 要 
素 抽取 任务 ,除了 两 个 子 任务 进行 损失 的 到 加 训练 之 
外 ,还 建立 了 名 向 量 表 示 上 的 联系 ,以 进一步 强化 子 任 
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雪 小 雅 ,等 .基于 多 层 卷 积 神经 网 络 的 金融 事件 联合 抽取 方法 [可 .图 书 情报 工作 ,2021 ,65(24) :89 - 99. 


表 10 不 同 模型 抽取 结果 对 比 


ss 模型 结构 事件 分 类 事件 元 素 抽取 结果 
2020 年 底 享 道 出 行 获得 阿里 巴巴 和 宁德 时 代 3 亿 元 A BiLSTM-CRF 1/ 战 略 合 作 。 ”Trigger( 触发 词 ) :战略 
轮 战略 融资 ,此 次 融资 主要 用 于 发 展 企业 级 业务 Company ( 合作 公司 ) :阿里 巴巴 
Company ( 合作 公司 ) :宁德 时 代 
Company ( 合作 公司 ) : 享 道 出 行 
Time( 时间) :2020 年 底 
BERT-BiLSTM-CRF SARRA Tagser( 触发 词 ) ;融资 
Company-1( 投 融资 主体 ) :阿里 巴巴 


IDCNN-CRF 
BERT-IDCNN-CRF 


BERT-MultiCNN 


395V1 


Company-2( 投 融资 客体 ) : 享 道 出 行 
Time( 时间) :2020 年 底 


0/ 无 关注 事件 None 
3/ 投 融资 Trigger ( 触发 词 ) :融资 
Company-2( 投 融资 客体 ) : 享 道 出 行 
Time( 时间 ) :2020 年 底 
Round( 轮 次 ) :A 轮 
Amount( 47i) :3 亿 元 
3/ 投 融资 Tigger( 触发 词 ) :融资 


Company-1( 投 融资 主体 ) :阿里 巴巴 
Company-1( 投 融资 主体 ) :宁德 时 代 
Company-2( 投 融资 客体 ) : 享 道 出 行 
Time( 时 间 ) :2020 年 底 

Round( 轮 次 ) :A 轮 


Amount( 金额 ) :3 ALIG 
e 


Aci CROCI, KLBKA RK 
REPAULUH , Sc pdt tb IDE Ce ORCI; e E 4 B SEC PU 
ER EKAT RERE, TUTERA 
sieht SERME PI, AI Ae E FEX 
EEE REE 

全 本 文 提 出 的 联合 抽取 模型 当前 主要 用 于 单 事件 抽 
耽 才 在 更 复杂 的 领域 应 用 场景 中 ,还 有 对 语句 中 出 现 
多 唑 相关 事 件 进行 复合 抽取 的 需求 ,我 们 将 在 后 续 工 
作 盏 ,探讨 引入 文档 篇 章 信息 对 模型 进行 一 步 优化 ,以 
清治 复合 事件 抽取 需求 。 
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A Joint Extraction Method of Financial Events Based on Multi-Layer 
Convolutional Neural Networks 
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之 Abstract; | Purpose/significance | In order to further improve the effect of event extraction in the financial 
Teu, the correlation between the two subtasks of event extraction needs to be enhanced. | Method/process | This 
paper carried out related research about event extraction on Chinese financial texts, and proposed a joint extraction 
method of financial events that integrated the pre-training model and a multi-layer convolutional neural network. 


First, the pre-training model BERT captured the comprehensive semantic information of the sentence sequence, then 


accessed the multi-layer convolutional architecture designed in this paper MultiCNN, hierarchically extracted lo- 
cal window and high-dimensional spatial semantic information , realized the two tasks of event recognition and element 
extraction at the same time, and then introduced contrast loss to further strengthen the association between the two 
tasks. | Result/conclusion | F1 has reached 82. 2096 on the Chinese financial event data set, which has a certain 


improvement over the benchmark extraction models. 


Keywords: Chinese event extraction convolution neural network — pretraining model joint learning 


99 


